2025.10.16 | UniMoE一统语音音乐；注意力图点亮大模型推理

Update: 2025-10-16

Description

本期的 15 篇论文如下：

[00:21 ] 🎧 UniMoE-Audio: Unified Speech and Music Generation with Dynamic-Capacity MoE（UniMoE-Audio：基于动态容量MoE的统一语音与音乐生成模型）

[00:57 ] 🔍 Attention Illuminates LLM Reasoning: The Preplan-and-Anchor Rhythm Enables Fine-Grained Policy Optimization（注意力照亮大模型推理：预规划-锚定节奏实现细粒度策略优化）

[01:38 ] ⚡ FlashWorld: High-quality 3D Scene Generation within Seconds（FlashWorld：秒级高质量3D场景生成）

[02:06 ] 🐝 Bee: A High-Quality Corpus and Full-Stack Suite to Unlock Advanced Fully Open MLLMs（Bee：高质量语料与全栈套件解锁完全开源多模态大模型）

[02:37 ] 🗣 InteractiveOmni: A Unified Omni-modal Model for Audio-Visual Multi-turn Dialogue（InteractiveOmni：面向音视频多轮对话的统一全模态模型）

[03:24 ] 🌍 PhysMaster: Mastering Physical Representation for Video Generation via Reinforcement Learning（PhysMaster：通过强化学习掌握视频生成的物理表征）

[04:00 ] 🧪 LIBERO-Plus: In-depth Robustness Analysis of Vision-Language-Action Models（LIBERO-Plus：视觉-语言-动作模型鲁棒性深度剖析）

[04:43 ] 🚗 CVD-STORM: Cross-View Video Diffusion with Spatial-Temporal Reconstruction Model for Autonomous Driving（CVD-STORM：面向自动驾驶的跨视角视频扩散时空重建模型）

[05:21 ] 🔍 Generative Universal Verifier as Multimodal Meta-Reasoner（生成式通用验证器：多模态元推理的反思引擎）

[06:07 ] ⚖ ParallelBench: Understanding the Trade-offs of Parallel Decoding in Diffusion LLMs（ParallelBench：探明扩散式大模型并行解码的取舍）

[06:43 ] 🎞 Trace Anything: Representing Any Video in 4D via Trajectory Fields（任意视频4D轨迹场表示：一次前馈即可还原每像素连续时空路径）

[07:27 ] 🌍 Reasoning in Space via Grounding in the World（基于世界锚定的空间推理）

[07:54 ] 🧠 The Role of Computing Resources in Publishing Foundation Model Research（计算资源在基础模型研究发表中的角色）

[08:28 ] ⚖ UniME-V2: MLLM-as-a-Judge for Universal Multimodal Embedding Learning（UniME-V2：用多模态大模型当裁判，打造通用多模态表征）

[09:05 ] 🤖 InternVLA-M1: A Spatially Guided Vision-Language-Action Framework for Generalist Robot Policy（InternVLA-M1：面向通用机器人策略的空间引导视觉-语言-动作框架）

</figure>

【关注我们】

您还可以在以下平台找到我们，获得播客内容以外更多信息

小红书: AI速递

Comments

In Channel

【周末特辑】10月第3周最火AI论文 | 量化噪声变探索，单卡跑RL；冻结编码器放语义，DiT生成新纪录

2025-10-1813:30

2025.10.17 | AI眼镜预判式服务；视频生成补想象力

2025-10-1708:40

2025.10.16 | UniMoE一统语音音乐；注意力图点亮大模型推理

2025-10-1610:13

2025.10.15 | 像素级自监督ViT刷新生成基准；多智能体评测网文翻译新标尺

2025-10-1510:38

2025.10.14 | 量化误差变奖励，单卡训32B；面向多模态大模型的音视频评测基准

2025-10-1411:24

2025.10.13 | 桌面交互预训练解锁机器人潜能；统一模型赋予相机空间想象力

2025-10-1310:10

【周末特辑】10月第2周最火AI论文 | 递归小模型刷爆推理榜；未来经验点亮零奖励学习

2025-10-1211:39

2025.10.10 | 早期经验的Agent Learning；图文交错反思链跃升至24.9%

2025-10-1010:00

2025.10.09 | Ming-UniVision统一视觉词表；KV-Cache直连让大模型秒聊

2025-10-0911:46

2025.10.08 | TaTToo用外挂代码干翻大模型；4B小模型32步逼近闭源巨头

2025-10-0811:16

2025.10.07 | 论文秒变演讲；Video-LMM后训练突破

2025-10-0711:02

2025.10.06 | 15B小模型追平DeepSeek-R1；渐进蒸馏128 token省八成算力

2025-10-0611:02

【周末特辑】10月第1周最火AI论文 | Transformer长出大脑的壳；LongLive把长视频做成直播

2025-10-0512:14

2025.10.03 | LongCodeZip删得快准；迈向分钟级高质量视频生成

2025-10-0311:19

2025.10.02 | MCTS破局RLVR瓶颈；GEM开源智能体训练场

2025-10-0210:32

【月末特辑】9月最火AI论文 | 群体RL共享降本；SAPO让旧机也能训大模型

2025-10-0223:10

2025.10.01 | 自对弈零标注训练；MCP代理深度评测

2025-10-0111:21

2025.09.30 | SLA稀疏注意力砍算力；StableToken抗噪不训模

2025-09-3011:45

2025.09.29 | 实时长视频边聊边播；分位数基线稳控推理熵

2025-09-2910:55

【周末特辑】9月第5周最火AI论文 | Qwen3-Omni开源称王; 锁定视觉训解码，Baseer刷新阿文OCR；

2025-09-2712:37

00:00

2025.10.16 | UniMoE一统语音音乐；注意力图点亮大模型推理

#box-pro-ellipsis-176090047414743{-webkit-line-clamp:2;}2025.10.16 | UniMoE一统语音音乐；注意力图点亮大模型推理

2025.10.16 | UniMoE一统语音音乐；注意力图点亮大模型推理

2025.10.16 | UniMoE一统语音音乐；注意力图点亮大模型推理